近年来,基于变压器的模型已导致自然语言处理的语言建模取得重大进步。但是,他们需要大量的数据接受(预先)训练,并且除英语以外的语言中缺乏语料库。最近,一些计划提出了从自动网络爬行获得的多语言数据集。但是,西班牙语的结果具有重要的缺点,因为与其他语言相比,它们要么太小,要么呈现出较低的质量,从而获得了次优的清洁和重复数据删除。在本文中,我们介绍了Escorpius,这是一种西班牙爬行语料库,该语料库是从附近的1 pb普通爬网数据中获得的。它是西班牙语中最广泛的语料库,其提取,纯化和重复数据删除的质量水平。我们的数据策划过程涉及一条新型的高度平行清洁管道,并包含一系列重复数据删除机制,以确保文档和段落边界的完整性。此外,我们同时维护源网页URL和WARC Shard Origin URL,以抱怨欧盟法规。 Escorpius已根据CC BY-NC-ND 4.0许可发布,可在HuggingFace上获得。
translated by 谷歌翻译
我们重新访问重尾损坏的最小二乘线性回归,假设最多损坏了$ n $ n $ n $ sized的标签 - 功能样本,最多是$ \ epsilon n $ nutialary Outliers。我们希望估计给定标签 - 功能对$(y,x)$满足$ y = \ y = \ langle x,b^*\ rangle+xi $的标签 - 功能对$(y,x)$的样本给定$ p $ -dimensional参数$ b^*$ - 尾$(x,\ xi)$。我们只假设$ x $ is $ l^4-l^2 $超债券与常数$ l> 0 $,并具有协方差矩阵$ \ sigma $,最低eigenvalue $ 1/\ mu^2> 0 $和有限条件号$ \ \ \ \ \ \ \ \ kappa> 0 $。只要$ \ xi x $具有有限的协方差矩阵$ \ xi $,噪声$ \ xi $可以任意取决于$ x $,而非对称性。我们提出了一个基于功率方法的近乎最佳的计算估计器,假设对$(\ sigma,\ xi)$也不了解$ \ xi $的运算符规范。如果概率至少$ 1- \ delta $,我们提出的估计器达到了统计率$ \ mu^2 \ vert \ xi \ xi \ vert^{1/2}(\ frac {p} {n} {n}+\ frac {\ log(\ log(\ log( 1/\ delta)}} {n}+\ epsilon)^{1/2} $ and beckdown-point $ \ epsilon \ epsilon \ sillesim \ frac {1} {l^4 \ kappa^2} $ \ ell_2 $ - norm,假设最小最小样本大小$ l^4 \ kappa^2(p \ log p + p + \ log(1/\ delta))\ sillsim n $,最多为log fix因数。据我们所知,这是同时满足所有提到的所有属性的第一个计算障碍算法。我们的估计器基于两阶段的乘量重量更新算法。第一阶段估计了(未知)预先条件的内部产品$ \ langle \ sigma(\ cdot),\ cdot \ rangle $。第二阶段估计下降方向$ \ sigma \ hat v $相对于(已知的)内部产品$ \ langle \ cdot,\ cdot \ rangle $,而无需了解或估计$ \ sigma $。
translated by 谷歌翻译